语料库技术 | 语料降噪(干货收藏!)
在构建语料库的过程中,我们常常会发现收集到的语料有着众多格式问题,这时候就需要进行语料降噪,又称语料清理。语料降噪是指消除语料中多余的字符或影响语料对齐的字符、公式、图表等,以提高语料库统计分析的效用。最常见的问题包括语料中多余的空行、多余的空格、全半角标点转换及非正常断行等,如图1、2所示。
图1 多余空格、空行、全半角标点混用
图2-2 多余空格、非正常断行
工具描述:
Word的强大降噪功能体现在“查找和替换”中的“特殊格式”上。在语料降噪实践中,最常见的“特殊符号”为段落标记(^p)、手动换行符(^l)、任意字符(^?)、任意数字(^#)、任意字母(^$)等。
具体实践:
删除多余空行
“查找和替换”功能
在“查找内容”里点击特殊格式→段落标记(P)或直接输入^p
在“替换为”保留空白
点击替换,重复这一步骤直至没有多余空行
图3 使用word删除多余空行
删除多余空格:
在“查找内容”里输入两个空格
在“替换为”里输入一个空格
点击替换,重复这一步骤直至没有多余空行
注意*中英文文本不同,英文文本保留一个空格,中文文本不保留空格
图4 使用word删除多余空格
全半角标点符号混用:
首先选中“搜索选项”内“区分全/半角”
在“查找内容”里输入中文输入法下的标点
在“替换为”里输入英文输入法下的标点
点击替换,若需半角符号转为全角符号,则“查找内容”和“替换内”对调
图5 点击“区分全/半角”
图6 从全角标点符号转为半角标点符号
更多时候,我们需要处理的是txt格式文件,这时候就需要使用如Emeditor或者Editpad Pro等文本编辑器来清理语料。
工具描述:
EmEditor是一款功能非常强大的文本编辑器,具备文本检索、降噪、分割、合并、对比、提取等功能,同时语料速度处理快,软件简洁大方,没有绑定的付费项目。
图7 EmEditor安装界面
“正则表达式”是什么?一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符"),通常被用来检索、替换符合某个模式/规则的文本。
具体实践:
删除多余空格/解决全半角标点混用问题
导入txt文件
点击“搜索”→“替换”
和word查找替换的步骤是一样的
图8 EmEditor的搜索替换界面
图9 删除多余空格/解决全半角标点混用问题
去除标点前的多余空格
图10 标点前出现多余空格
在“查找”处输入\s+([[:punct:]])
“替换”处输入\1
点击“替换”
这里要注意,不是所有标点前的空格都要删除,所以在查找替换的时候避免直接“替换全部”
图11 去除标点前的多余空格
图12 需要保留的空格
删除英文语料中的中文信息/中文语料中的英文信息
图13 英文语料中出现中文
在“查找”处输入[一-龟]+或[A-Za-z]+
“替换”处留白
点击“全部替换”
图14 删除英文语料中的中文信息
删除多余空行/缩进
图15 多余的缩进、空行示意
在“查找”处输入^[\s\t\n]*
“替换”处留白
点击“全部替换”
图16 删除多余的空行/缩进
图17 删除后效果示意图
非正常断行
当文本较为简单,只有一个段落中有非正常断行时的处理方法:
图18 非正常断行示意
在“查找”处输入\r\n
“替换”处留白
点击“全部替换”
图19 删除非正常断行
图20 删除后效果示意图
当文本较为复杂,有两个以上的段落出现非正常断行时,如果直接输入\r\n替换,则会把所有段落变为一个段落,不符合我们的需求,这时候就要采用较为曲折的方法:
在“查找”处输入^\s+,“替换”处输入@@,点击“全部替换” ,这一步是为了保留段落标记(图21)
在“查找”处输入\r\n,“替换”处保留空白,这一步是为了删除非正常断行(图22)
现在两个段落合并为一个段落(图23)
在“查找”处输入@@,“替换”处输入“\r\n”,这一步是为了把原先的@@标记替换为换行符,实现换行(图24)
最终成果如图25所示
图21把行首的空白符换成自己的符号@@
图22 删除非正常断行
图23 删除所有非正常断行后,两个段落合并为一
图24 删除@@,替换为换行符
图25 最终成果
语法纠错
在打开的文本页面上单击右键
选择进行拼写检查
图26 打开EmEditor的拼写检查
图27 待解决的问题:标点前的多余空格
Prompt:
中文:“将文本中的全角标点转化为半角标点,去掉多余空格”
英文:in the following passage, please change full-angle marks into half-angle ones and delete any unnecessary space
文心一言
图28 文心一言的处理效果
Perplexity
图29 Perplexity的处理效果
大数据模型的不足:字数限制、无法批量处理;不同的大数据模型有着不同的文件格式限制
图30 文心一言的文档要求
图31 Perplexity的文档要求
总结:在构建语料库的过程中,语料清理是个较为繁琐枯燥却又必不可少的流程。虽然可用的工具有很多,如word,文本编辑器+正则表达式调整,又或是大语言模型一步到位,但为了谨慎起见,还要对文本进一步观察,看有没有“漏网之鱼”。总之,语料的加工是一项非常细致的工作,也是建设语料库,进行语料库研究的基础性工作。语料加工的越精细,将会为后期的数据统计和分析提供可行的依据,减少误差。
《语料库与翻译》管新潮、陶友兰著,复旦大学出版社。
https://zhuanlan.zhihu.com/p/580795277
https://zhuanlan.zhihu.com/p/580795298
EmEditor中文版官网下载链接:https://zh-cn.emeditor.com/
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
原创来源:北外CAT课程-语料库技术-2024春-小组成员:曹瑞恩 卓书妙 黄书婷
推文编辑:李丹
审核:陈毅强 陈杲
文章推荐:
【02】Microsoft Office和WPS中大语言模型插件初探
【04】教你如何使用 Copilot
【05】ChatGPT 和 Gemini 达到专八水平了吗?
【06】国外主流翻译APP
【07】国内主流翻译APP工具
【08】在Trados中利用TM做预翻译
【09】平行语料库在口译实践中的应用
【10】语料库探索之语料对齐及分词赋码
【11】语料处理之语料采集与清洗
【14】国内外常见语料工具一览
【15】翻译人员不容错过的5个权威术语库
【16】国内外常见CAT工具一览
【18】Quicker使用技巧
【22】TermWiki:术语检索利器
【24】ChatGPT + Word = 高效办公
【25】如何利用聊天机器人制作双语术语表
【26】 ChatGPT在译前准备中的应用——术语准备
【27】投喂语料,提升译文质量
【28】(一)结合ChatGPT的译前编辑初探
【29】ChatGPT最新接入word方法(完美debug)
【30】AI外语写作助手,助力高效写作
【31】探索ChatGPT在翻译过程中的应用
【32】中科院学术优化本地部署
如您喜欢我们的内容,欢迎您点赞、在看、转发,更多问题可后台留言小编哦
资讯推荐
点个关注再走吧